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摘 要 : 当今 社交 媒体 已 成 为 大 数据 分 析 的 重要 来 源 ， 如 何在 海量 的 媒体 数据 中 查询 到 自己 想 要 的 内 容 成 为 目前 主要 的 研究 
方向 。 本 篇 文章 通过 对 微 信 、 微 博 媒 体 大 数据 的 查询 工具 的 实战 问题 分 析 ， 并 提供 解决 方案 ， 为 后 续 的 用 户 和 设计 者 们 提供 
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1. 背景 

在 云 计算 和 大 数据 背景 下 ， 数 据 呈 现 爆炸 式 增长 趋 
势 。 新 媒体 的 快速 崛起 ， 既 是 机 遇 也 是 挑 成 。 媒 体 要 实 
现 智能 匹配 、 融 合 发 展 ， 就 要 充分 利用 各 种 先进 技术 手 
段 ， 充 分 挖掘 数据 价值 ， 辅 助 节目 生产 ， 创 新 传播 形式 。 
口 尤 其 是 社交 媒体 的 话题 度 及 对 舆论 的 引导 对 于 主流 媒 
体 在 市 场 评估 与 收视 分 析 中 占有 不 可 忽视 的 地 位 ， 通 过 
查询 分 析 微 信 、 微 博 媒 体 数据 ， 有 利于 引导 电视 台 进 入 
良性 的 数据 生态 循环 ， 充 分 发 挥 数据 自身 的 价值 ， 挖 掘 
更 多 的 数据 分 析 结 果 ， 提 升 未 来 业务 的 灵活 性 。 品 

为 更 好 地 分 析 “ 两 微 ” 系 统 的 数据 ， 即 微 信 和 微 博 
数据 ， 通 过 接 入 第 三 方 清 博 提供 的 “两 微 ”数据 以 及 电 
视 台 自 建 的 大 数据 平台 自行 采集 的 “两 微 ”数据 ， 实 现 
数据 查询 与 分 析 服 务 , 为 进一步 促进 电视 台 构 建 自 主 
可 控 的 自 有 新 媒体 旗舰 平台 ,推动 电视 台 融 合 发 展 的 自 
有 品牌 发 展 、 自 有 平台 建设 以 及 用 户 积累 ， 是 确立 电视 
台 进 一 步 迈 进 新 媒体 大 数据 时 代 的 里 程 碑 。 

在 构建 及 运行 两 微 系 统 时 ， 面 临 着 一 些 超出 需求 和 
规划 的 问题 暴露 出 来 ， 本 论文 通过 对 这 些 实际 的 案例 问 
题 进 行 分 析 并 提供 实际 的 解决 方案 ， 为 后 续 的 设计 者 和 
用 户 提供 一 些 指导 性 的 参考 。 

2.“ 两 微 ”系统 架 构 及 数据 源 
2.1 系统 架构 

如 图 1 所 示 ， 为 基于 SPARK 的 “两 微 ” 系 统 的 主要 
设计 架构 。 两 微 ” 数 据 查 询 系 统 是 接 入 第 三 方 清 博 数 
据 及 大 数据 平台 方 提供 的 微 信 和 微 博 数据 ， 解 析 导 入 到 
kafka 队列 中 ， 通 过 spark 程序 消费 kafka 消息 并 清洗 治理 
后 导入 到 ES 中 。 最 终 通过 JAVAweb 访问 查询 数据 。 主 
要 的 数据 流程 如 下 : 

接 入 多 种 数据 来 源 ， 有 清 博 的 微 信 、 微 博 数 据 ， 和 
大 数据 平台 的 微 信 、 微 博 数据 。 大 数据 平台 方 的 上 游 是 
接 和 人 微 博 官方 提供 的 数据 和 微 信 官方 提供 的 数据 。 

消息 队列 接收 到 数据 。 

SPARK 应 用 监听 消息 后 ,存储 到 HBASE。 


SPARK 应 用 将 数据 存储 到 ES 中 。 

SPARK 应 用 分 析 数 据 ， 并 将 分 析 后 的 结果 也 保存 在 
ES 中 。 

可 查询 微 信 、 微 博 的 文章 数据 ， 可 查询 微 信 、 微 博 
的 账号 数据 。 


区 I 


ER 可 


1 两 微 系统 整体 架构 图 


2.2 数据 源 

“两 微 ”系统 采取 多 数据 源 模式 , 由 清 博 提 供 的 微 信 、 
微 博 数据 和 大 数据 平台 的 微 信 、 微 博 数据 组 成 。 当 查询 
的 账号 数据 是 官方 认证 时 ， 读 取 大 数据 平台 数据 。 当 查 
询 的 账号 数据 是 非 官方 认证 的 ， 读 取 清 博 数 据 。 当 大 数 
据 平 台数 据 未 及 时 提供 时 ， 全 部 读 取 清 博 数据 。 
2.3 “两 微 ” 系 统 实际 效果 图 


查询 微 信 账 号 的 指标 数据 


查询 微 博 账号 的 指标 数据 
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查询 自 定义 品牌 的 文章 数据 


3. 实际 案例 分 析 
“两 微 ” 系 统 上 线 后 ， 为 台 方 进行 市 场 评估 及 传播 

影响 力 分 析 方面 起 到 了 非常 重要 的 作用 。“ 两 微 ” 系 统 
的 特点 是 时 效 性 要 求 很 强 ， 数 据 要 求 准确 ， 只 有 这 样 才 
能 提供 给 用 户 部 门 在 进行 准确 的 评估 。 但 是 在 日 常 使 用 
中 ， 也 直到 过 很 多 不 同 的 问题 。 通 过 与 用 户 及 上 下 游 各 
系统 的 沟通 以 及 对 问题 的 分 析 与 解决 的 过 程 ， 积 累 了 很 
多 针对 “两 微 ” 数 据 采 集 与 分 析 的 经 验 ， 可 以 为 运行 维 
护 提供 有 力 的 支撑 。 下 面 以 案例 的 方式 ， 将 该 系统 运行 
中 常见 的 问题 进行 分 析 与 解读 ， 可 以 为 有 “两 微 ”数据 
分 析 需 求 的 人 提供 一 些 浅显 的 帮助 。 
3.1 案例 1 

问题 表述 : 用 户 反 馈 ， 现 在 “两 微 ” 平 台 的 “新 媒 
体 品 牌 ”计算 不 了 ， 输 入 任何 新 任务 毫 无 反应 。 

初步 问题 的 判定 猜测 : 1. 用 户 电脑 的 浏览 器 问题 ， 
与 系统 不 兼容 ; 2. 网 络 延迟 问题 ， 导 致 数据 无 法 访问 ; 
3. 后 台 服 务 发 生 异 常 ， 无 法 提供 服务 ， 前 端 系统 缓存 
在 客户 浏览 器 中 ， 所 以 客户 依然 能 使 用 系统 ， 但 服务 
没 反 应 。 

初步 的 定位 问题 : 首先 通过 不 同 终端 的 浏览 需 ， 对 
系统 进行 访问 , 确认 问题 一 直 存 在 , 可 以 排除 前 两 种 可 能 。 
定位 为 问题 3。 定 位 系统 问题 范围 后 ， 需 要 进一步 查 明 原 
因 ， 登 录 服务 器 查看 服务 器 产生 的 日 志 。 日 志 显 示 为 ， 
java.lang.OutOfMemoryError: Java heap space， 时 间 为 中 午 
11 点 21 分。 根据 时 间 查 询 tomcat 的 操作 日 志 ， 操 作 日 
志 显 示 ， 在 查询 1 月 份 至 3 月 份 的 微 博 文章 数据 。 根 据 
日 志 找到 对 应 的 代码 ， 调 试 发 现 这 一 步 是 403421 条 数据 
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载 和 内存 中 ， 产 生 共 计 1.7G 的 内 存 ， 服 务 器 内 存 溢出 。 

解决 问题 ， 先 通过 后 台 写 ES 语句， 查询 用 户 想 要 的 
数据 ， 保 证 用 户 对 于 数据 的 需求 。 重 新 启动 服务 ， 让 服 
务 正常 。 优 化 代码 ， 发 现 内 存 溢出 的 语句 后 ， 进 行 ES 查 
询 语句 的 优化 ,减少 中 间 结 果 数 据 ， 最 终 保 证 系统 稳定 
运行 。 修 改 之 后 进行 极限 测试 ， 下 载 多 月 数据 ,判断 系 
统 是 否 正常 。 

案例 1 的 分 析 : 系统 的 功能 要 进行 极限 压力 测试 ， 
模拟 极限 查询 ， 在 极限 查询 条 件 下 系统 能 稳定 运行 ， 即 
证 明 系 统 可 稳定 运行 。 为 了 快速 方便 的 定位 问题 ， 要 在 
关键 的 节点 加 入 日 志 。 
3.2 案例 2 

问题 表述 : “今天 的 数据 还 没有 更 新 ， 多 久 可 以 更 
新 好 ”， 用 户 发 现 数 据 更 新 时 间 依 然 是 昨天 。 

初步 问题 的 判定 猜测 : 1. 上 游 数据 源 未 提供 数据 ; 
2. 上 游 数 据 源 已 经 提供 数据 ， 但 导入 数据 功能 异常 ; 
3. 上 游 数据 源 提供 数据 ， 导 入 数据 功能 正常 ， 但 消息 队 
列 异 常 ; 4. 以 上 均 正常 ，ES 数据 库 无 法 访问 。 

初步 定位 问题 : 检查 FTP 中 的 大 数据 平台 中 的 数据 
是 否 存在 。 发 现 数据 已 经 存在 ， 进 一 步 检查 是 否 含 有 结 
束 标 识 ， 发 现 并 无 结束 标识 ， 即 finished 文件 。 

解决 问题 : 上 游 数据 源 未 及 时 提供 ， 告 知 上 游 数据 
提供 方 。 待 上 游 数据 提供 后 ， 观 察 上 游 数据 是 否 接 入 本 
系统 。 导 入 本 系统 成 功 ， 更 新 标识 显示 。 

案例 2 分 析 : 数据 接 人 是 有 流程 的 ， 当 数据 无 法 正 
常 接 入 时 ， 优 先 判 断 数据 是 否 接 入 。 
3.3 案例 3 

问题 描述 : “目前 远程 特别 慢 ， 似 乎 有 问题 ， 下 载 
特别 慢 ， 等 了 10 分 钟 还 是 没有 下 载 成 功 ”。 

初步 问题 的 判定 猜测 : 1. 系统 服务 异常 ; 2. 台 内 网 
络 异常 ; 3.VPN 网 络 异常 。 

初步 定位 问题 : 检查 服务 状态 ， 发 现 服务 状态 正常 ; 
通过 内 网 访问 系统 ， 响 应 时 间 正 常 ; 通过 VPN 访问 网 页 ， 
显示 正常 ; 模拟 客户 的 请 求 ， 在 内 网 访问 ， 请 求 成 功 ; 
通过 VPN 模拟 客户 的 请 求 ， 请 求 失 败 。 
解决 问题 ， 了 解 VPN 访问 机 制 ，VPN 是 通过 台 内 代 
理 反 向 映射 要 台 内 地 址 。VPN 有 请 求 超时 设置 ， 超 时 时 
间 为 180 秒 。 改 变 系 统 文件 的 导出 机 制 ， 由 同步 导出 ， 
改 成 异步 导出 。 系 统 后 台 自 动 计算 , 算 好 后 供用 户 下 载 ， 
这 样 不 会 导致 VPN 请 求 超时 。 增 加 超时 提供 。 

案例 3 分 析 : VPN 访问 时 ， 会 有 一 些 限制 ， 系 统 的 
设计 要 灵活 ， 可 以 应 对 各 种 网 络 环境 。 请 求 异 常 时 ， 要 
给 予 用 户 提示 ， 和 否则 用 户 不 知道 是 系统 异常 还 是 什么 原 
因 。 蜡 常 信息 要 清晰 ， 分 别 展现 出 是 服务 异常 ， 还 是 网 
络 异 常 ， 帮 助 快速 定位 。 
3.4 案例 4 

问题 描述 : 用户 反馈 , 使 用 “XXXXX” 作 为 关键 词 ， 
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查 无 结果 ,如 下 图 2 所 示 。 但 该 日 期 内 应 该 能 查 出 结果 ， 
因为 该 账号 发 表 了 一 篇 这 样 的 文章 。 


2 案例 4 的 问题 描述 


初步 问题 的 判定 猜测 : 1. 该 日 期 内 的 文章 ( 含 
XXXXX 的 内 容 的 ) 数据 未 接 入 进 系统 中 。2. 该 日 期 内 的 
文章 不 叫 这 个 名 字 。3. 该 日 期 内 的 文章 还 未 导入 至 系统 
中 。 

初步 定位 问题 : 去 微 博 查 看 找到 用 户 指 定 的 文章 。 
通过 该 微 博 的 ut, 搜索 数据 库 , 发 现 数据 库 中 含有 该 文章 。 
文章 的 名 称 也 是 一 样 的 。 检 测 数据 ， 发 现 同一 篇 文章 会 
多 次 出 现在 数据 库 中 ， 因 为 要 保存 文章 在 不 同时 间 点 的 
状态 。 在 数据 库 中 查询 客户 搜索 条 件 下 的 日 期 内 文章 ， 
发 现 文章 名 称 和 最 新 的 名 称 不 一 致 ， 导 致 无 法 在 指定 日 
期 内 查询 出 该 文章 。 

解决 问题 : 基于 变化 ， 完 善 系统 的 健壮 性 ， 将 微 博 
名 称 的 变更 也 考虑 进去 。 

案例 4 分 析 : 数据 分 析 工 具 的 准确 性 ， 依 赖 于 数据 
源头 的 稳定 性 ， 但 数据 源头 本 身 就 是 多 边 的 ， 需 要 将 系 
统 设计 的 更 加 灵活 ， 才 能 增加 系统 的 健壮 性 。 

3.5 案例 5 
问题 描述 :用户 反馈 ， 
是 什么 原因 呢 ”。 

初步 问题 的 判定 猜测 : 1. 上 游 未 提供 数据 。2. 上 游 
提供 数据 ， 但 导入 数据 功能 异常 。3. 上 游 提 供 数据 ， 导 
入 数据 功能 正常 ， 但 消息 队列 异常 。4. 以 上 均 正常 ，ES 
数据 库 无 法 访问 。 

初步 定位 问题 : 上 游 数据 已 提供 。 发 现 导 入 数据 功 
能 异常 ， 导 入 数据 功能 未 执行 。 确 认定 时 执行 导入 数据 
功能 的 系统 用 户 无 法 启 该 功能 ， 最 终 发 现 为 系统 用 户 密 
码 超期 。 

解决 问题 : 修改 系统 用 户 密码 ， 使 系统 用 户 生效 。 
系统 要 检查 关键 定时 任务 是 否 触发 ， 触 发 后 告知 用 户 。 
整理 系统 用 户 密码 超时 文档 , 定期 检查 即将 过 期 的 用 户 ， 
并 改 密码 。 

案例 5 分 析 : 合理 有 效 的 巡 检 ,是 系统 稳定 运行 的 
前 提 条 件 。 保 证 文档 的 完整 性 , 并 有 巡 检 人 员 及 时 查看 。 
定期 修改 密码 ， 保 证 系统 的 安全 性 。 


“今天 上 自 采 数 据 还 未 更 新 ， 


3.6 案例 6 
问题 描述 : “这 是 一 个 微 博文 章 的 数据 ， 阅 读 量 大 


的 夸张 ， 需 要 核实 一 下 数据 的 准确 性 ”。 如 下 图 所 示 : 
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初步 问题 的 判定 猜测 : 1. 该 数据 是 否 为 上 游 数据 源 
提供 数据 。2. 该 指标 是 否 经 过 计算 。 

初步 定位 问题 : 该 数据 是 上 游 提 供 数 据 ， 并 且 该 数 
据 未 经 过 计算 。 最 终 确 认 微 信和 官方 提供 数据 异常 。 

解决 问题 : 告知 上 游 数 据 源 重新 接 入 数据 ,手动 触发 ， 
将 该 日 的 数据 接 入 到 本 系统 中 , 再 次 检查 数据 是 否 合理 。 

案例 6 分 析 : 数据 处 理 要 包含 一 些 快速 处 理 异 常 的 
机 制 。 当 上 游 数据 异常 ， 需 要 系统 级 的 重新 接 入 时 ， 可 
以 快速 响应 ， 用 最 短 的 时 间 处 理 问题 。 


3.7 案例 7 
问题 描述 : 用 户 反 馈 ，“ 昨 日 的 微 博 的 直播 数据 均 
为 0”。 


初步 问题 的 判定 猜测 : 1. 数据库 中 的 数据 为 0; 2. 上 
游 提 供 的 原始 数据 为 0; 3. 上 游 数据 异常 或 者 上 游 的 上 游 
数据 异常 。 

初步 定位 问题 : 查询 本 系统 的 数据 为 0。 数据 源 的 
直播 数据 也 为 0。 微 博 刚刚 修改 了 机 制 ， 直 播 回 放 以 后 都 
会 变 成 视频 ， 所 以 没有 直播 数据 了 ， 视 频数 据 量 是 基于 
直播 数据 累计 的 。 
解决 问题 : 调查 数据 源头 的 变更 ， 查 明 后 修正 接受 
数据 的 方法 。 

案例 7 分 析 : 定期 查看 数据 源头 的 变化 ， 在 本 系统 
中 快速 做 出 响应 。 
4. 总 结 与 展望 

通过 对 “两 微 ” 系 统 查询 工具 的 实战 问题 分 析 ， 了 
解 针 对 查询 系统 出 现 的 问题 ， 首 先 明 确 问 题 定 位 ， 给 出 
初步 的 问题 来 源 ， 其 次 通过 查询 相关 工具 和 内 容 定位 问 
题 的 发 生 ， 最 后 ， 提 出 对 应 的 解决 方案 完善 查询 系统 的 
功能 。 科 学 合理 地 描述 问题 、 定 位 问题 、 解 决 问题 ， 是 
保证 “两 微 ” 系 统 查询 工具 的 运 维稳 定性 与 可 靠 性 ， 对 
用 户 和 其 他 设计 者 们 具有 重要 的 参考 价值 。" 

在 未 来 工作 中 ， 从 “两 微 ” 系 统 查询 工具 实战 问题 
分 析 中 积累 发 现 问题 、 解 决 问题 的 实战 开发 经 验 ， 扩 展 
到 电视 台 其 他 系统 ， 为 电视 台 的 新 媒体 数据 搜索 和 数据 
的 价值 分 析 提 供 强 有 力 的 运 维 技术 保障 ,中 稳定 提升 系 
统 稳定 性 ， 强 化 数据 查询 搜索 分 析 带 来 的 实际 效益 。 嘻 
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